期刊
  出版年
  关键词
结果中检索 Open Search
Please wait a minute...
选择: 显示/隐藏图片
1. 云环境下软件错误报告自动分类算法改进
黄伟, 林劼, 江育娥
计算机应用    2016, 36 (5): 1212-1215.   DOI: 10.11772/j.issn.1001-9081.2016.05.1212
摘要517)      PDF (705KB)(399)    收藏
用户提交的软件错误报告随意性大、主观性强且内容少导致自动分类正确率不高,需要花费大量人工干预时间。随着互联网的快速发展用户提交的错误报告数量也不断增加,如何在海量数据下提高其自动分类的精确度越来越受到关注。通过改进词频-逆文档频率(TF-IDF),考虑到词条在类间和类内出现情况对文本分类的影响,提出一种基于软件错误报告数据集的改进多项式朴素贝叶斯算法,同时在Hadoop平台下使用MapReduce计算模型实现该算法的分布式版本。实验结果表明,改进的多项式朴素贝叶斯算法将 F1值提高到71%,比原算法提高了27个百分点,同时在海量数据下可以通过拓展节点的方式缩短运行时间,有较好的执行效率。
参考文献 | 相关文章 | 多维度评价
2. 基于分布式架构的时间序列局部相似检测算法
林炀, 江育娥, 林劼
计算机应用    2016, 36 (12): 3285-3291.   DOI: 10.11772/j.issn.1001-9081.2016.12.3285
摘要631)      PDF (1125KB)(482)    收藏
基于动态时间规整算法思想的CrossMatch算法可以用来解决序列间的部分相似问题,但是由于算法时间空间复杂度过高,需要消耗大量的计算资源,因此无法应用于长序列之间的计算。针对以上问题,提出了一个基于分布式平台上的时间序列局部相似性检测算法。将CrossMatch算法实现在了分布式框架上,解决了计算资源不足的问题。首先需要对序列进行切分,分别放置在不同的节点上;其次,各节点分别处理各自序列的相似部分;最后,通过对结果进行汇总并拼接,找出序列间的局部相似。实验结果表明,该算法在准确性上和CrossMatch相近,在时间上也有提升。改进后的分布式算法不仅解决了单机无法处理的长序列计算问题,而且可以通过增加并行计算节点数提高运行速度。
参考文献 | 相关文章 | 多维度评价